home *** CD-ROM | disk | FTP | other *** search
/ Personal Computer World 2009 February / PCWFEB09.iso / Software / Linux / Kubuntu 8.10 / kubuntu-8.10-desktop-i386.iso / casper / filesystem.squashfs / usr / share / apt-xapian-index / plugins / translated-desc.py < prev    next >
Text File  |  2008-08-20  |  5KB  |  139 lines

  1. import apt
  2. import xapian
  3. import re
  4. import os, os.path, urllib
  5. from debian_bundle import deb822
  6.  
  7. APTLISTDIR="/var/lib/apt/lists"
  8.  
  9. def translationFiles():
  10.     # Look for files like: ftp.uk.debian.org_debian_dists_sid_main_i18n_Translation-it
  11.     # And extract the language code at the end
  12.     tfile = re.compile(r"_i18n_Translation-([^-]+)$")
  13.     for f in os.listdir(APTLISTDIR):
  14.         mo = tfile.search(f)
  15.         if not mo: continue
  16.         yield urllib.unquote(mo.group(1)), os.path.join(APTLISTDIR, f)
  17.  
  18. class Indexer:
  19.     def __init__(self, lang, file):
  20.         self.lang = lang
  21.         self.xlang = lang.split("_")[0]
  22.         self.indexer = xapian.TermGenerator()
  23.         # Get a stemmer for this language, if available
  24.         try:
  25.             self.stemmer = xapian.Stem(self.xlang)
  26.             self.indexer.set_stemmer(self.stemmer)
  27.         except xapian.InvalidArgumentError:
  28.             pass
  29.  
  30.         # Read the translated descriptions
  31.         self.descs = dict()
  32.         desckey = "Description-"+self.lang
  33.         for pkg in deb822.Deb822.iter_paragraphs(open(file)):
  34.             # I need this if because in some translation files, some packages
  35.             # have a different Description header.  For example, in the -de
  36.             # translations, I once found a Description-de.noguide: header
  37.             # instead of Description-de:
  38.             if desckey in pkg:
  39.                 self.descs[pkg["Package"]] = pkg[desckey]
  40.  
  41.     def index(self, document):
  42.         name = document.get_data()
  43.         self.indexer.set_document(document)
  44.         self.indexer.index_text_without_positions(self.descs.get(name, ""))
  45.  
  46. class TranslatedDescriptions:
  47.     def info(self):
  48.         """
  49.         Return general information about the plugin.
  50.  
  51.         The information returned is a dict with various keywords:
  52.          
  53.          timestamp (required)
  54.            the last modified timestamp of this data source.  This will be used
  55.            to see if we need to update the database or not.  A timestamp of 0
  56.            means that this data source is either missing or always up to date.
  57.          values (optional)
  58.            an array of dicts { name: name, desc: description }, one for every
  59.            numeric value indexed by this data source.
  60.  
  61.         Note that this method can be called before init.  The idea is that, if
  62.         the timestamp shows that this plugin is currently not needed, then the
  63.         long initialisation can just be skipped.
  64.         """
  65.         maxts = max([0] + [os.path.getmtime(f) for l, f in translationFiles()])
  66.         return dict(timestamp = maxts)
  67.  
  68.     def init(self, info, progress):
  69.         """
  70.         If needed, perform long initialisation tasks here.
  71.  
  72.         info is a dictionary with useful information.  Currently it contains
  73.         the following values:
  74.  
  75.           "values": a dict mapping index mnemonics to index numbers
  76.  
  77.         The progress indicator can be used to report progress.
  78.         """
  79.  
  80.         self.indexers = []
  81.         for lang, file in translationFiles():
  82.             progress.begin("Reading %s translations from %s" % (lang, file))
  83.             self.indexers.append(Indexer(lang, file))
  84.             progress.end()
  85.  
  86.     def doc(self):
  87.         """
  88.         Return documentation information for this data source.
  89.  
  90.         The documentation information is a dictionary with these keys:
  91.           name: the name for this data source
  92.           shortDesc: a short description
  93.           fullDoc: the full description as a chapter in ReST format
  94.         """
  95.         return dict(
  96.             name = "Translated package descriptions",
  97.             shortDesc = "terms extracted from the translated package descriptions using Xapian's TermGenerator",
  98.             fullDoc = """
  99.             The TranslatedDescriptions data source reads translated description
  100.             files from %s, then uses Xapian's TermGenerator to tokenise and
  101.             index their content.
  102.  
  103.             Currently this creates normal terms as well as stemmed terms
  104.             prefixed with ``Z``.
  105.             """ % APTLISTDIR
  106.         )
  107.  
  108.     def index(self, document, pkg):
  109.         """
  110.         Update the document with the information from this data source.
  111.  
  112.         document  is the document to update
  113.         pkg       is the python-apt Package object for this package
  114.         """
  115.         for i in self.indexers:
  116.             i.index(document)
  117.  
  118.     def indexDeb822(self, document, pkg):
  119.         """
  120.         Update the document with the information from this data source.
  121.  
  122.         This is alternative to index, and it is used when indexing with package
  123.         data taken from a custom Packages file.
  124.  
  125.         document  is the document to update
  126.         pkg       is the Deb822 object for this package
  127.         """
  128.         for i in self.indexers:
  129.             i.index(document)
  130.  
  131. def init():
  132.     """
  133.     Create and return the plugin object.
  134.     """
  135.     files = [f for l, f in translationFiles()]
  136.     if len(files) == 0:
  137.         return None
  138.     return TranslatedDescriptions()
  139.